智能论文笔记

Generative appearance replay for continual unsupervised domain adaptation

Boqi Chen , Kevin Thandiackal , Pushpak Pati , Orcun Goksel

分类：计算机视觉 | 人工智能

2023-01-03

Deep learning models can achieve high accuracy when trained on large amounts of labeled data. However, real-world scenarios often involve several challenges: Training data may become available in installments, may originate from multiple different domains, and may not contain labels for training. Certain settings, for instance medical applications, often involve further restrictions that prohibit retention of previously seen data due to privacy regulations. In this work, to address such challenges, we study unsupervised segmentation in continual learning scenarios that involve domain shift. To that end, we introduce GarDA (Generative Appearance Replay for continual Domain Adaptation), a generative-replay based approach that can adapt a segmentation model sequentially to new domains with unlabeled data. In contrast to single-step unsupervised domain adaptation (UDA), continual adaptation to a sequence of domains enables leveraging and consolidation of information from multiple domains. Unlike previous approaches in incremental UDA, our method does not require access to previously seen data, making it applicable in many practical scenarios. We evaluate GarDA on two datasets with different organs and modalities, where it substantially outperforms existing techniques.

translated by 谷歌翻译

Differentiable Zooming for Multiple Instance Learning on Whole-Slide Images

Kevin Thandiackal , Boqi Chen , Pushpak Pati , Guillaume Jaume , Drew F. K. Williamson , Maria Gabrani , Orcun Goksel

分类：计算机视觉

2022-04-26

多个实例学习（MIL）方法在数字病理学中对GIGA像素大小的全型图像（WSI）进行分类变得越来越流行。大多数MIL方法通过处理所有组织斑块，以单个WSI放大倍率运行。这样的公式诱导了高计算要求，并将WSI级表示的上下文化限制为单个量表。一些MIL方法扩展到多个量表，但在计算上要求更高。在本文中，受病理诊断过程的启发，我们提出了Zoommil，该方法学会了以端到端的方式执行多层缩放。Zoommil通过从多个增强元中汇总组织信息来构建WSI表示。所提出的方法在两个大数据集上的WSI分类中优于最先进的MIL方法，同时大大降低了关于浮点操作（FLOPS）和处理时间的计算需求，最高为40倍。

translated by 谷歌翻译

BRACS: A Dataset for BReAst Carcinoma Subtyping in H&E Histology Images

Nadia Brancati , Anna Maria Anniciello , Pushpak Pati , Daniel Riccio , Giosuè Scognamiglio , Guillaume Jaume , Giuseppe De Pietro , Maurizio Di Bonito , Antonio Foncubierta , Gerardo Botti

分类：人工智能 | 计算机视觉

2021-11-08

乳腺癌是最常见的癌症，并寄存癌症的妇女的最多死亡人数。结合大规模筛查政策的诊断活动的最新进展显着降低了乳腺癌患者的死亡率。然而，病理学家手动检查病理学家的载玻片是麻烦的，耗时的，并且受到显着的和观察者内的变异性。最近，全幻灯片扫描系统的出现授权了病理幻灯片的快速数字化，并启用了开发数字工作流程。这些进步进一步使利用人工智能（AI）来协助，自动化和增强病理诊断。但是AI技术，尤其是深度学习（DL），需要大量的高质量注释数据来学习。构建此类任务特定的数据集造成了几个挑战，例如数据获取级别约束，耗时和昂贵的注释，以及私人信息的匿名化。在本文中，我们介绍了乳腺癌亚型（BRACS）DataSet，一个大队列的注释血清杂环蛋白和eosin（H＆E） - 染色的图像，以促进乳房病变的表征。 BRACS包含547个全幻灯片图像（WSIS），并从WSI中提取4539个兴趣区域（ROI）。每个WSI和各自的ROI都是通过三个董事会认证的病理学家的共识注释为不同的病变类别。具体而言，Bracs包括三种病变类型，即良性，恶性和非典型，其进一步亚级分为七个类别。据我们所知，这是WSI和ROI水平的最大的乳腺癌亚型的附带数据集。此外，通过包括被升值的非典型病变，Bracs提供了利用AI更好地理解其特征的独特机会。

translated by 谷歌翻译

Biomedical image analysis competitions: The state of current participation practice

Matthias Eisenmann , Annika Reinke , Vivienn Weru , Minu Dietlinde Tizabi , Fabian Isensee , Tim J. Adler , Patrick Godau , Veronika Cheplygina , Michal Kozubek , Sharib Ali

分类：计算机视觉 | 机器学习

2022-12-16

The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.

translated by 谷歌翻译

Knowledge Graph Construction and Its Application in Automatic Radiology Report Generation from Radiologist's Dictation

Kaveri Kale , Pushpak Bhattacharyya , Aditya Shetty , Milind Gune , Kush Shrivastava , Rustom Lawyer , Spriha Biswas

分类：自然语言处理 | 人工智能

2022-06-13

从传统上讲，放射科医生准备诊断笔记，并与转录师分享。然后，抄写员准备了指参考票据的初步格式报告，最后，放射科医生审查报告，纠正错误并签字。该工作流程在报告中导致重大延迟和错误。在当前的研究工作中，我们专注于NLP技术（例如信息提取（IE）和域特异性知识图（KG））的应用，以自动从放射科医生的命令中生成放射学报告。本文通过从现有的自由文本放射学报告的大型语料库中提取信息来重点介绍每个器官的KG构造。我们开发了一种信息提取管道，将基于规则的，基于模式和基于词典的技术与词汇语义特征相结合，以提取实体和关系。可以从kgs访问简化的丢失信息，以产生病理描述，并因此是放射学报告。使用语义相似性指标评估了生成的病理描述，该指标与金标准病理描述显示了97％的相似性。另外，我们的分析表明，我们的IE模块的性能要比放射学域的开放式工具更好。此外，我们还包括放射科医生的手动定性分析，该分析表明80-85％的生成报告是正确编写的，其余部分是正确的。

translated by 谷歌翻译

MammoDL: Mammographic Breast Density Estimation using Federated Learning

Keshava Katti , Ramya Muthukrishnan , Angelina Heyler , Sarthak Pati , Aprupa Alahari , Michael Sanborn , Emily F. Conant , Christopher Scott , Stacey Winham , Celine Vachon

分类：计算机视觉 | 机器学习

2022-06-11

评估成像中的乳腺癌风险仍然是一个主观过程，在该过程中，放射科医生采用计算机辅助检测（CAD）系统或定性视觉评估来估计乳房密度（PD）。更先进的机器学习（ML）模型已成为量化早期，准确和公平诊断的乳腺癌风险的最有希望的方法，但是医学研究中的这种模型通常仅限于小型单一机构数据。由于患者人口统计和成像特征可能在成像站点之间有很大差异，因此在单机构数据中训练的模型往往不会很好地概括。为了应对这个问题，提出了Mammodl，这是一种开源软件工具，利用UNET体系结构来准确估计乳腺PD和数字乳房X线摄影（DM）的复杂性。通过开放的联合学习（OpenFL）库，该解决方案可以在多个机构的数据集上进行安全培训。 Mammodl是一个比其前任更精简，更灵活的模型，由于对更大，更具代表性的数据集的支持培训，因此具有改进的概括。

translated by 谷歌翻译

Knowledge Graph - Deep Learning: A Case Study in Question Answering in Aviation Safety Domain

Ankush Agarwal , Raj Gite , Shreya Laddha , Pushpak Bhattacharyya , Satyanarayan Kar , Asif Ekbal , Prabhjit Thind , Rajesh Zele , Ravi Shankar

分类：自然语言处理 | 人工智能 | 机器学习

2022-05-31

在商业航空域中，有大量文件，例如事故报告（NTSB，ASRS）和监管指令（ADS）。有必要有效地访问这些多样化的存储库，以便在航空业中的服务需求，例如维护，合规性和安全性。在本文中，我们提出了一个基于深度学习的知识图（kg）基于深度学习（DL）的问题答案（QA）航空安全系统。我们从飞机事故报告中构建了知识图，并向研究人员社区贡献了这一资源。该资源的功效由上述质量保证系统测试和证明。根据上述文档构建的自然语言查询将转换为SPARQL（RDF图数据库的接口语言）查询并回答。在DL方面，我们有两个不同的质量检查模型：（i）BERT QA，它是通道检索（基于句子的）和问题答案（基于BERT）的管道，以及（ii）最近发布的GPT-3。我们根据事故报告创建的一系列查询评估系统。我们组合的QA系统在GPT-3上的准确性增长了9.3％，比Bert QA增加了40.3％。因此，我们推断出KG-DL的性能比单一表现更好。

translated by 谷歌翻译

Indian Language Wordnets and their Linkages with Princeton WordNet

Diptesh Kanojia , Kevin Patel , Pushpak Bhattacharyya

分类：自然语言处理

2022-01-09

Wordnets是丰富的词典语义资源。链接的Wordnets是Wordnets的扩展，哪个在不同语言的Wordnets中链接类似的概念。这种资源在许多自然语言处理（NLP）应用中非常有用，主要是基于知识的方法。在这种方法中，这些资源被视为金标准/甲骨文。因此，这些资源保持正确的信息至关重要。因此，他们是由人类专家创造的。但是，多种语言的人类专家很难通过。因此，社区将受益于分享此类手动创造的资源。在本文中，我们释放了与Princeton Wordnet相关联的18个印度语言Wordnets的映射。我们认为，此类资源的可用性将对这些语言的NLP中的进展直接影响。

translated by 谷歌翻译

Semi-automatic WordNet Linking using Word Embeddings

Kevin Patel , Diptesh Kanojia , Pushpak Bhattacharyya

分类：自然语言处理

2022-01-05

Wordnets是丰富的词典语义资源。链接的Wordnets是Wordnets的扩展，哪个在不同语言的Wordnets中链接类似的概念。这种资源在许多自然语言处理（NLP）应用中非常有用，主要是基于知识的方法。在这种方法中，这些资源被视为金标准/甲骨文。因此，这些资源保持正确的信息至关重要。因此，它们是由人类专家创建的。但是，这些资源的手动维护是一种繁琐而昂贵的事情。因此，可以帮助专家的技术是可取的。在本文中，我们提出了一种方法来链接Wordnets。鉴于源语言的SYNSET，该方法返回人类专家可以选择正确的目标语言中的潜在候选拟合序列列表。我们的技术能够在排名前10名列表中检索赢家SYNSET，占所有拟合的60％和70％的名词Synsets。

translated by 谷歌翻译

Strategies of Effective Digitization of Commentaries and Sub-commentaries: Towards the Construction of Textual History

Diptesh Kanojia , Malhar Kulkarni , Sayali Ghodekar , Eivind Kahrs , Pushpak Bhattacharyya

分类：自然语言处理

2022-01-05

本文介绍了称为“文本历史工具”的数字工具的其他方面。我们描述了其各种突出特征，特别参考其特征，可能有助于理智学家在文本上数字化评论和子评论。该工具通过各种时间级捕获文本的历史演进，以及从各种类型的相关文本中剔除的相互关联数据。我们使用k \ = a \'sik \ = avrtti（kv）的文本作为示例文本，并且在照相专家的帮助下，我们将评论数字化为我们提供的评论。我们将NY \ = ASA（NY）数字化，Padama \〜njar \ = i（PM）和子注释称为Tantraprad \ = IPA（TP）和Makaranda（MK）。我们将每次评论和子评论划分为功能单位，并描述了功能单元划分背后的方法和动机。基于使用在工具中输入的数据的距离方法，我们的功能单元部门有助于为文本生成更准确的系统发育树。

translated by 谷歌翻译